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Abstract of DE1 996221 8 

The method involves associating spoken 
commands with at least one defined position at 
which the person speaking the command must 
be in order for the command to be carried out. 
It is established whether the person speaking 
a command is at the defined position and if the 
result is positive the function to perform the 
command is enabled. 
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Prufungsantrag gem. § 44 PatG ist gestellt 

© Verfahren und System zum Autorisieren von Sprachbefehlen 

(ST) In einer mit Sprachbefehlen arbeitenden Einrichtung 
werden Sprachbefehle dadurch autorisiert, daft vor be- 
st immten Sprachbefehlen vorbestimmte Orte zugeordnet 
werden, in denen sich eine den Befehl sprechende Person 
befinden mu(S, damit der Sprachbefehl ausgefuhrt wird. 
Der Sprachbefehl wird von einem Mikrofon erfafct. 
Gleichzeitig wird von einer dem vorbestimmten Ortzuge- 
ordneten Kamera die Mundbewegung einer dort spre- 
chenden Person erfaBt und der Befehl zur Ausfuhrung nur 
freigegeben, wenn die Mundbewegung mit dem vpm Mi- 
krofon erfafcten Audiosignal korreliert. 
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Beschreibung 



Die Erfindung betrifft ein Verfahren zum Autorisieren 
von Sprachbefehlen sowie ein System zum Autorisieren von 
Sprachbefehlen in einer mittels Sprachbefehlen gesteuerten 5 
Einrichtung. 

Fortschritte auf dem Gebiet der Spracherkennung ermbg- 
lichen in zunehmendem MaB eine komfortabie Steuerung 
von Funktionseinheiten uber Sprachbefehle. Dazu wird iiber 
ein Mikrofon aufgenommene Sprache zunachst im Hinblick to 
auf darin enthaltene typische Laute, Worte oder Wortfolgen 
analysiert und die festgestellten Laute, Worte oder Wortfol- 
gen werden anschlieBend mit in einem Befehlsspeicher ab- 
gelegten Befehlen verglichen, die in Form von typischen 
Lauten, Worten oder Wortfolgen abgelegt sind. Bei Uberein- 15 
stimmung wird der jeweilige Befehl aktiviert. 

Aus der EP 0 082 304 A 1 ist bekannt, Sprache in Verbin- 
dung mit Gesichtserkennung als biometrische Merkmals- 
kombination zu verwenden, um eine Person zu identifizie- 
ren und dadurch beispielsweise zu uberpriifen, ob eine Per- 20 
son zur Uberwindung eines Zugangskontrollsystems autori- 
siert ist. Dazu werden stimmspezifische Merkmale der zu 
uberprufenden Person, die ein Schlusselwort in ein Mikro- 
fon spricht, in einem Korrelationsrechner mit fruher gespei- 
cherten stimmspezifischen Merkmalen einer bekannten Per- 25 
son verglichen, die dasselbe Schlusselwort auBerL Dadurch 
wird eine erste Korrelationsrate erhalten. Zur gleichen Zeit 
und zwar wenn ein Senilis selereignis in der AuBerung des 
Schliisselwortes durch die zu iiberpriifende Person entsteht, 
wird ein Momentanbild der Mundregion der Person aufge- 30 
nommen, auf die vorher ein Gittermuster projiziert worden 
ist. Dieses Momentanbild wird mit einem vorher gespei- 
cherten, entsprechenden Momentanbild der bekannten Per- 
son verglichen, um eine zweite Korrelationsrate zu erhalten. 

Die beiden Korrelationsraten werden analysiert, um fest- 35 
zustellen, ob die zu iiberpriifende Person mit der bekannten 
Person ubereinstimmt. 

Bei Einrichtungen, die uber Sprachbefehle gesteuert wer- 
den, insbesondere wenn solche Einrichtungen in Kraftfahr- 
zeugen verwendet werden, besteht ein Problem dahinge- 40 
hend, daB eine andere Person als die Fahrerin oder der Fah- 
rer des Fahrzeugs Sprachbefehle spricht, die dann als Be- 
fehle erkannt werden und zur Auslosung bestimmter Funk- 
tionen fuhren. Dies kann zu fur den Fahrer verwirrenden 
oder sogar gefahrlichen Zustanden fuhren. 45 

Der Erfindung liegt die Aufgabe zugrunde, Abhilfe fur 
das vorgenannte Problem zu schaffen. 

Gegenstand des Anspruchs 1 ist ein verfahren zur Losung 
dieser Aufgabe. 

ErfindungsgemaB wird festgestellt, an welchem Ort sich 50 
eine einen Sprachbefehl sprechende Person befindet und 
werden Sprachbefehle, die diesem Qrt zugeordnet sind, nur 
dann freigegeben, wenn die den jeweiligen Befehl spre- 
chende Person als an dem Ort befindlich erkannt ist. Fur die 
Ortserkennung gibt es unterschiedlichste Moglichkeiten, 55 
beispielsweise indem die Sprache von mehreren Mikrofo- 
nen erfaBt wird, so daB uber ein Triangulationsverfahren der 
Ort des Sprechers erkannt werden kann. 

Ein anderes Verfahren zur Ortserkennung des Sprechers 
ist im Anspruch 2 angegeben, wobei dieses Verfahren ge- 60 
maB dem Anspruch 3 zusatzlich dazu verwendet werden 
kann, die Spracherkennung sicherer zu machen. 

Ein System zur Losung der Erfindungsaufgabe ist im An- 
spruch 4 angegeben. 

Dieses System wird mit den Merkmalen der Anspruche 5 65 
bis 8 in vorteilhafter Weise weitergebildet. 

Die Erfindung ist uberall dort mit Vorteii einsetzbar, wo 
Sprachsteuersysteme eingesetzt werden, bei denen vorbe- 



stimmte Befehle nur dann aktiviert werden sollen, wenn sich 
eine den Befehl sprechende Person innerhalb eines vorbe- 
stimmten ortlichen Bereiches befindet. 

Die Erfindung kann in Verbindung mit Personenidentifi- 
zierungssystemen eingesetzt werden, wie sie beispielsweise 
in der eingangs genannten EP 0 082 304 Al beschrieben 
sind. Auf diese Weise kann zusatzlich uberpruft werden, ob 
die in einem vorbestimmten ortlichen Bereich befindliche 
Person eine autorisierte Person ist. 

Die Erfindung wird im foigenden anhand schematischer 
Zeichnungen beispielsweise und mit weiteren Einzelheiten 
erlautert. 

Es stellen dar: 

Fig, 1 eine Aufsicht auf einen vereinfacht dargestellten 
Innenraum eines Kraftfahrzeugs, und 

Fig, 2 ein Blockschaltbild des erflndungsgemaBen Sy- 
stems. GemaB Fig, 1 sind im Innenraum eines Kraftfahr- 
zeugs ein Fahrersitz 2, ein Beifahrersitz 4 und eine Fondsitz- 
bank 6 angeordnet. 

Im Dachbereich oberhalb der Windschutzscheibe befindet 
sich eine Kameraeinrichtung 10 mit Kameras 12 und 14. 
Der Biidwinkel £li der Kamera 12 uberstreicht einen Be- 
reich, in dem sich normalerweise der Kopf des Fahrers be- 
findet. Der Biidwinkel Q 2 der Kamera 14 uberstreicht einen 
Bereich, in dem sich normalerweise der Beifahrer befindet. 

Im Dachbereich vor dem Fondraurn ist eine weitere Ka- 
mera 16 angeordnet, deren Biidwinkel Q3 den mittleren Be- 
reich des Fondraums uberstreicht. Weiter sind Mikrofone 18 
und 20 vorgesehen, wobei das Mikrofon 18 dem Fahrer/Bei- 
fahrerraum zugeordnet ist und das Mikrofon 20 dem Fond- 
raurn zugeordnet ist. 

Fig. 2 zeigt ein Blockschaltbild der Anordnung gemaB 
Fig, 1. 

Das Mikrofon 18 ist an eine Sprachanalyseeinrichtung 22 
angeschlossen, in der die empfangene Sprache durch Korre- 
lation mit in einem Sprachspeicher 24 abgelegten typischen 
Sprachlauten und Worten analysiert wird und an deren Aus- 
gang den analysierten Lauten bzw. Worten entsprechende 
Signale erzeugt werden. 

Die Kamera 12, die das Gesicht der Fahrerin oder des 
Fahrers 26 erfaBt, ist mit einer Bewegungsanalyseeinrich- 
tung 26 verbunden, in der die von der Kamera 12 erfaBten 
Mundbewegungen im Hinblick auf typische Mundbewe- 
gungen analysiert werden und auf ihre Korrelation mit typi- 
schen Mundbewegungen zugeordneten, im Sprachspeicher 
24 vorher gespeicherten typischen Lauten oder Worten 
uberpruft werden. Bei positiver Korrelation erscheinen am 
Ausgang der Bewegungsanalyseeinrichtung 26 den typi- 
schen Lauten und/oder Worten entsprechende Signale. 

Die Ausgangssignale der Sprachanalyseeinrichtung 22 
und r der Bewegungsanalyseeinrichtung 26 werden einer 
Synchronprufeinrichtung 30 zugefuhrt, die nur solche Laute 
und/oder Worte durchlaBt und einer Korrelationseinrichtung 
32 zufuhrt, die zeitgleich aus der Sprachanalyseeinrichtung 
22 und der Bewegungsanalyseeinrichtung 26 ausgegeben 
werden. 

In der Korrelationseinrichtung 32 werden die empfange- 
nen typischen Laute und/oder Worte mit in einer Sektion I 
eines Befehlsspeichers 34 abgelegten Befehlen verglichen. 
Bei positivem Vergleich wird am Ausgang der Korrelations- 
einrichtung 32 ein entsprechendes Befehlssignal erzeugt 
und in einer Steuereinrichtung 36 in ein entsprechendes 
Steuersignal zum Steuern einer Funktion umgewandelt. 

Die dem Beifahrer 40 zugeordnete Kamera 14 ist mit ei- 
ner weiteren Bewegungsanalyseeinrichtung 42 verbunden, 
der eine Synchronprufeinrichtung 44 nachgeschaltet ist, die 
mit der Sprachanalyseeinrichtung 22 und einer weiteren 
Korrelationseinrichtung 46 verbunden ist, die mit einer Sek- 
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tion II des Befehlsspeichers 34 uncHnit der Steuereinrich- 
tung 36 verbunden ist. 

Die Kamera 16 des Fondraums ist der Einfachheit halber 
nicht in das Blockschaltbild eingezeichnet. Sie ist ahnlich 
geschaltet wie die Kamera 14 bzw. die Kamera 12. Das Fon- 
draummikrofon 20 kann unmittelbar an die Sprachanalysee- 
inrichtung 22 angeschlossen sein. 

Die Funktionen der einzelnen entsprechend fortschrittli- 
chen gangigen Verfahren der Spracherkennung, der Bildver- 
arbeitung und der Informationskorrelationen arbeitenden 
Komponenten sowie deren Aufbau sind an sich bekannt und 
werden daher nicht erlautert. 

Im folgenden wird daher lediglich das erfindungsgemaBe 
Zusammenwirken der Komponenten beschrieben: 
Es sei angenommen, der Fahrer 26 sprache das Befehlswort 
"Scheibenwischer an". Das Sprechen dieses Sprachbefehls 
wird zum einen vom Mikrofon 18 erfaBt und zum anderen 
von der Kamera 12. In der Sprachanalyseeinrichtung 22 
wird durch Vergleich mit im Sprachspeicher 24 abgelegter 
Information ermittelt, daB die Wortgruppe "Scheibenwi- 
scher an" gesprochen wurde und am Ausgang der Sprach- 
analyseeinrichtung 22 erscheint ein entsprechendes Signal. 
In der Bewegungsanalyseeinrichtung 26 werden die Mund- 
bewegungen analysiert, die dem Sprechen der Wortfolge 
"Scheibenwischer an" entsprechen und durch Korrelation 
mit im Sprachspeicher 24 abgelegten Informationen festge- 
stellt, daB diese Wortfolge gesprochen wurde, so daB am 
Ausgang der Bewegungsanalyseeinrichtung 26 ein entspre- 
chendes Signal erzeugt wird. In der Synchronprufeinrich- 
tung 30 wird iiberpruft, ob beide Signale synchron zueinan- 
der sind, so daB das synchrone Signal zu der Korrelations- 
einrichtung 32 durchgelassen wird, in der iiberpruft wird, ob 
dem Signal ein im Befehlsspeicher 34 abgelegter Befehl 
entspricht. Ist im Befehlsspeicher 34 ein entsprechender Be- 
fehl "Scheibenwischer an" abgelegt, so sendet die Korrelati- 
onseinrichtung 32 ein entsprechendes Signal an die Steuer- 
einrichtung 26, in der ein Steuersignal zum Inbetriebsetzen 
des Scheibenwischers erzeugt wird. 

Wird die Wortfolge "Scheibenwischer an" vom Beifahrer 
40 gesprochen, so lauft der geschiiderte Vorgang in der 
Sprachanalyseeinrichtung 22, der Bewegungsanalyseein- 
richtung 42, der Synchronpriifeinrichtung 44 und der Korre- 
lationseinrichtung 46 ab. In der Korreiationseinrichtung 46 
erfolgt keine positive Korrelation mit einem in der Sektion 
II des Befehlsspeichers 34 abgelegten Befehl, da in der Sek- 
tion II nur solche Befehle abgelegt sind, die fiir den Beifah- 
rer erlaubte Befehle sind. Entsprechend wird die Steuerein- 
richtung 36 nicht aktiv, wenn der Beifahrer 40 den Befehl 
"Scheibenwischer ah" spricht. 

Durch Segmentierung der in dem Befehlsspeicher 34 ab- 
gelegten Befehle in einzelne Sektionen, die unterschiedli- 
chen Kameras bzw. ortlichen Bereichen im Fahrzeuginneren 
zugeordnet sind, wird somit ermoglicht, daB Sprachbefehle 
nur dann ausgefiihrt werden, wenn sie aus einem, dem je- 
weiligen Sprachbefehl zugeordneten raumlichen Bereich 
des Fahrzeuginnenraums kommen. Dabei konnen be- 
stimmte Befehle durchaus alien Bereichen des Fahrzeugin- 
nenraums zugeordnet sein beispielsweise "Innenbeleuch- 
tung an" oder "Radio aus" und so weiter. Weiter ist es mog- 
lich, daB ein Befehl "Temperatur hoher" unterschiedliche 
Funktionen auslost, je nachdem, ob er vom Fahrer, Beifahrer 
oder aus dem Fond gesprochen wird. In einer Heizungs- 
/Klimaanlage werden dann entsprechende Funktionen aus- 
gelost, die den ortlichen Bereichen zugeordnet sind. 

Es versteht sich weiter, daB der Fahrer beispielsweise mit- 
tels einer nicht dargestellten Bedieneinheit Befehle einzel- 
nen ortlichen Bereichen zuordnen kann; beispielsweise kann 
er Telefonfunktionen fiir den gesamten Innenraum freige- 



ben, nur fiir den Beifahrer freigeben usw. 

In der bzw. den Synchronprufeinrichtungen 30, 44 kon- 
nen verstummelte Worte, die beziiglich ihrer Synchronisie- 
rung noch erkennbar sind, die aber nicht vollstandig aufge- 
5 nommen sind, beispielsweise weil der Mund der sprechen- 
den Person teilweise verdeckt wird oder ein Gerausch das 
gesprochene Wort uberdeckt, durch gegenseitige Korrela- 
tion erganzt werden, so daB die Qualitat der der Korrelati- 
onseinrichtung 32 zugeordneten Information bzw. Worte 

10 verbessert ist. 

Die Erfindung kann in vielfaltiger Weise abgeandert wer- 
den, Beispielsweise konnen die den unterschiedlichen Ka- 
meras zugeordneten Sprachanalyseeinrichtungen, Syn- 
chronprufeinrichtungen und Korrelationseinrichtungen in 

15 einem gemeinsamen Hardware-Baustein zusammengefaBt 
sein, wobei die von der jeweiligen Kamera erfaBte optische 
Information hinsichtlich ihrer Kamerazuordnung gekenn- 
zeichnet wird. Die verschiedenen Sektionen des Befehls- 
speichers 34 konnen dadurch ausgebildet sein, daB den ins- 

20 gesamt im Befehlsspeicher 34 befindlichen Befehlen Infor- 
mationen hinsichtlich der jeweiligen ortlichen Bereiche 
bzw. Kameras zugefugt sind. Die Synchronprufung zwi- 
schen optischen und akustischen Informationen kann bereits 
vor der Analyse hinsichtlich vorbestimmter Sprachbau- 

25 steine erfolgen, da zwischen der gesprochenen Sprache und 
den erfaBten Mundbewegungen Grundkorrelationen beste- 
hen beispielsweise zwischen Sprachbeginn und Beginn ei- 
ner Mundbewegung. Der Innenraum des Fahrzeugs kann in 
mehrere Bereiche aufgeteilt sein, beispielsweise der Fond- 

30 raum in drei nebeneinander angeordnete Bereiche. Das Sy- 
stem kann auf den AuBenraum erweitert werden, der von ei- 
ner oder mehreren Kameras bereichsweise uberdeckt wird. 

In vereinfachter Ausfuhrungsform kann das System dazu 
verwendet werden festzustellen, ob eine Sprache uberhaupt 

35 von einer im Sichtfeld einer Kamera befindlichen Person 
ausgeht, in dem eine Synchronizitat zwischen akustisch auf- 
genommener Sprache und optisch erfaBter Mundbewegung 
festgestellt oder nur festgestellt wird, ob sich ein Mund be- 
wegt Iiegt keine Mundbewegung vor, so wird eine Sprach- 

40 auswertung gar nicht aktiviert, so daB Rechnerleistung ein- 
gespart bzw. nicht unnotig verbraucht wird. 

Patentanspriiche 

45 1. Verfahren zum Autorisieren von Sprachbefehlen, 
bei welchem Verfahren vorbestimmten Sprachbefehlen 
wenigstens ein vorbestimmter Ort zugeordnet wird, an 
dem sich eine die Befehle sprechende Person befinden 
muB, damit die Sprachbefehle ausgefiihrt werden, fest- 

50 gestellt wird, ob sich eine einen Sprachbefehl spre- 
chende Person an dem Ort befindet und bei positiver 
Feststellung die Ausfiihrung der Sprachbefehle freige- 
geben wird. 

2. Verfahren nach Anspruch 1, wobei 

55 Sprache akustisch aufgenornmen und hinsichtlich typi- 
scher Laute analysiert wird, wenigstens eine Kamera 
Mundbewegungen einer an einem vorbestimmten Ort 
befindlichen Person erfaBt, 

die aufgenommenen Mundbewegungen hinsichtlich ty- 
60 pischer Mundbewegungen analysiert werden, 

die typischen Mundbewegungen und die typischen 
Laute hinsichtiich ihrer zeitlichen Ubereinstimmung 
verglichen werden und 

bei positivem Vergleich der Ort des Sprechers als der 
65 Ort der mit der Kamera aufgenommenen Person identi- 
fiziert wird. 

3. Verfahren nach Anspruch 2, wobei typischen Mund- 
bewegungen typische Laute zugeordnet sind und aku- 
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stisch schlecht aufgenommene Laute durch typische 
Laute ersetzt werden, die zeitgleich aufgenommenen, 
typischen Mundbewegungen zugeordnet sind. 

4. System zum Autorisieren von Sprachbefehlen in ei- 
ner mittels Sprachbefehlen gesteuerten Einrichtung, 5 
enthaltend ein Mikrofon (18, 20) zur Aufnahme von 
Sprache, 

eine dem Mikrofon nachgeschaltete Sprachanalyseein- 
richtung (22) zur Analyse der Sprache hinsichtlich ty- 
pischer Laute und/oder Worte, 10 
eine Kameraeinrichtung (12, 14, 16), die Mundbewe- 
gungen einer an einem vorbesummten Ort befindlichen 
Person aufnimmt, 

eine der Kamera nachgeschalteten Bewegungsanaly- 
seeinrichtung (28, 42), die die aufgenommenen Mund- 15 
bewegungen hinsichtlich typischer Mundbewegungen 
und/oder diesen zugeordneten typischen Lauten und/ 
oder Worten analysiert, 

eine Synchronprufeinrichtung (30, 44), die die typi- 
schen Mundbewegungen und/oder die aus diesen abge- 20 
leiteten typischen Laute und/oder Worte hinsichtlich 
ihrer zeitlichen Ubereinstimmung mit aus der Sprach- 
analyse hergeleiteten typischen Lauten und/oder Wor- 
ten vergleicht und bei Ubereinstimmung weiterleitet, 
und eine Korreladonseinrichtung (32, 46), die durch 25 
Vergleich der weitergeleiteten typischen Laute und/ 
oder Worte mit in einem Befehlsspeicher (34) gespei- 
cherten Befehlen Befehlssignale an eine Steuereinrich- 
tung (36) weitergibt, die die Befehle in diesen zugeord- 
nete Steuersignale umsetzt. 30 

5. System nach Anspruch 4, wobei die Kameraeinrich- 
tung (12, 14, 16) derart ausgebildet ist, daB die Mund- 
bewegungen von an unterschiedlichen vorbestimmten 
Orten befindlichen Orten erfaBbar sind und den unter- 
schiedlichen Orten vorbestimmte zulassige Befehle zu- 35 
geordnet sind. 

6. System nach Anspruch 4 oder 5, wobei eine Spei- 
chereinrichtung (24) vorgesehen ist, in der typischen 
Mundbewegungen zugeordnete typische Laute und/ 
oder Worte abgelegt sind, und die Korrelationseinrich- 40 
tung (32, 46) bei schlechter Qualitat der akustisch auf- 
genommenen typischen Laute und/oder Worte die den 
zeitgleich aufgenommenen Mundbewegungen zuge- 
ordneten typischen Laute und/oder Worte weiterleitet. 

7. System nach einem der Anspriiche 4 bis 6, wobei 45 
die Kamera (12, 14, 16) den Fahrer- und Beif ahrerraum 

in einem Kraftfahrzeug erfaBt und die Steuersignale 
zur Steuerung von Funktionen vorgesehen sind. 

8. System nach Anspruch 7, wobei eine Kamera (16) 
den Fondraum des Kraftfahrzeugs erfaBt. 50 
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